智能论文笔记

Can a Robot Shoot an Olympic Recurve Bow? A preliminary study

Guilherme Christmann , Lin Yu-Ren , Rodrigo da Silva Guerra , Jacky Baltes

分类：机器人

2022-12-21

The field of robotics, and more especially humanoid robotics, has several established competitions with research oriented goals in mind. Challenging the robots in a handful of tasks, these competitions provide a way to gauge the state of the art in robotic design, as well as an indicator for how far we are from reaching human performance. The most notable competitions are RoboCup, which has the long-term goal of competing against a real human team in 2050, and the FIRA HuroCup league, in which humanoid robots have to perform tasks based on actual Olympic events. Having robots compete against humans under the same rules is a challenging goal, and, we believe that it is in the sport of archery that humanoid robots have the most potential to achieve it in the near future. In this work, we perform a first step in this direction. We present a humanoid robot that is capable of gripping, drawing and shooting a recurve bow at a target 10 meters away with considerable accuracy. Additionally, we show that it is also capable of shooting distances of over 50 meters.

translated by 谷歌翻译

Batch Active Learning from the Perspective of Sparse Approximation

Maohao Shen , Bowen Jiang , Jacky Yibo Zhang , Oluwasanmi Koyejo

分类：机器学习 | (统计)机器学习

2022-11-01

Active learning enables efficient model training by leveraging interactions between machine learning agents and human annotators. We study and propose a novel framework that formulates batch active learning from the sparse approximation's perspective. Our active learning method aims to find an informative subset from the unlabeled data pool such that the corresponding training loss function approximates its full data pool counterpart. We realize the framework as sparsity-constrained discontinuous optimization problems, which explicitly balance uncertainty and representation for large-scale applications and could be solved by greedy or proximal iterative hard thresholding algorithms. The proposed method can adapt to various settings, including both Bayesian and non-Bayesian neural networks. Numerical experiments show that our work achieves competitive performance across different settings with lower computational complexity.

translated by 谷歌翻译

Mental arithmetic task classification with convolutional neural network based on spectral-temporal features from EEG

Zaineb Ajra , Binbin Xu , Gérard Dray , Jacky Montmain , Stephane Perrey

分类：人工智能 | 计算机视觉 | 机器学习

2022-09-26

近年来，神经科学家一直对脑部计算机界面（BCI）设备的开发感兴趣。患有运动障碍的患者可能会受益于BCIS作为通讯手段和恢复运动功能。脑电图（EEG）是评估神经元活性的最常用之一。在许多计算机视觉应用中，深度神经网络（DNN）都具有显着优势。为了最终使用DNN，我们在这里提出了一个浅神经网络，该网络主要使用两个卷积神经网络（CNN）层，其参数相对较少，并且快速从脑电图中学习光谱时期特征。我们将该模型与其他三个神经网络模型进行了比较，其深度不同于精神算术任务，该模型使用了针对患有运动障碍的患者和视觉功能下降的患者进行的眼神闭合状态。实验结果表明，浅CNN模型的表现优于所有其他模型，并达到了90.68％的最高分类精度。处理跨主题分类问题也更加健壮：准确性的标准偏差仅为3％，而不是传统方法的15.6％。

translated by 谷歌翻译

Code as Policies: Language Model Programs for Embodied Control

Jacky Liang , Wenlong Huang , Fei Xia , Peng Xu , Karol Hausman , Brian Ichter , Pete Florence , Andy Zeng

分类：机器人

2022-09-16

已经证明，经过代码完成培训的大型语言模型（LLMS）能够合成DocStrings的简单Python程序[1]。我们发现这些代码编写的LLM可以被重新使用以编写机器人策略代码，给定自然语言命令。具体而言，策略代码可以表达处理感知输出的功能或反馈循环（例如，从对象检测器[2]，[3]）并参数化控制原始API。当作为输入提供了几个示例命令（格式为注释）后，然后是相应的策略代码（通过少量提示），LLMS可以接收新命令并自主重新编写API调用以分别生成新的策略代码。通过链接经典的逻辑结构并引用第三方库（例如，numpy，shapely）执行算术，以这种方式使用的LLM可以编写（i）（i）表现出空间几何推理的机器人策略，（ii）（ii）将其推广到新的说明和新指令和新指令和（iii）根据上下文（即行为常识）规定模棱两可的描述（例如“更快”）的精确值（例如，速度）。本文将代码作为策略介绍：语言模型生成程序的以机器人为中心的形式化（LMP），该程序可以代表反应性策略（例如阻抗控制器），以及基于Waypoint的策略（基于远见的选择，基于轨迹，基于轨迹，控制），在多个真实的机器人平台上展示。我们方法的核心是促使层次代码 - 代码（递归定义未定义的功能），该代码可以编写更复杂的代码，还可以改善最新的代码，以解决HOMANEVAL [1]基准中的39.8％的问题。代码和视频可从https://code-as-policies.github.io获得。

translated by 谷歌翻译

Automatic fetal fat quantification from MRI

Netanell Avisdris , Aviad Rabinowich , Daniel Fridkin , Ayala Zilberman , Sapir Lazar , Jacky Herzlich , Zeev Hananis , Daphna Link-Sourani , Liat Ben-Sira , Liran Hiersch

分类：计算机视觉

2022-09-08

正常的胎儿脂肪组织（AT）发育对于围产期健康至关重要。在或简单地脂肪以脂质形式存储能量。营养不良可能导致过度或耗尽的肥胖。尽管以前的研究表明，AT和围产期结局的量之间存在相关性，但缺乏定量方法，对AT的产前评估受到限制。使用磁共振成像（MRI），可以从两个点Dixon图像中获得整个胎儿的3D脂肪和纯水图像，以在脂质定量时启用。本文是第一个提出一种基于Dixon MRI的胎儿脂肪分割的深度学习方法的方法。它优化了放射科医生的手动胎儿脂肪描述时间，以生成带注释的培训数据集。它由两个步骤组成：1）基于模型的半自动胎儿脂肪分割，由放射科医生进行了审查和纠正； 2）使用在所得的注释数据集中训练的DL网络的自动胎儿脂肪分割。培训了三个DL网络。与手动分割相比，我们显示出分割时间（3:38小时至<1小时）和观察者变异性（0.738至0.906）的显着改善。用3D残差U-NET，NN-UNET和SWIN-UNETR TRONSERTER网络对24个测试用例进行自动分割，平均骰子得分分别为0.863、0.787和0.856。这些结果比手动观察者的变异性更好，并且与自动成人和小儿脂肪分割相当。一名放射科医生审查并纠正了六个新的独立案例，并使用最佳性能网络进行了细分，导致骰子得分为0.961，校正时间显着减少了15:20分钟。使用这些新颖的分割方法和短暂的MRI获取时间，可以在临床和大型果园研究中量化全身皮下脂质的单个胎儿。

translated by 谷歌翻译

Diverse Title Generation for Stack Overflow Posts with Multiple Sampling Enhanced Transformer

Fengji Zhang , Jin Liu , Yao Wan , Xiao Yu , Xiao Liu , Jacky Keung

分类：自然语言处理

2022-08-24

Stack Overflow是最受欢迎的编程社区之一，开发人员可以为他们遇到的问题寻求帮助。然而，如果没有经验的开发人员无法清楚地描述他们的问题，那么他们很难吸引足够的关注并获得预期的答案。我们提出了M $ _3 $ NSCT5，这是一种自动从给定代码片段生成多个帖子标题的新颖方法。开发人员可以使用生成的标题查找密切相关的帖子并完成其问题描述。 M $ _3 $ NSCT5使用Codet5骨干，这是一种具有出色语言理解和发电能力的预训练的变压器模型。为了减轻歧义问题，即在不同背景下可以将相同的代码片段与不同的标题保持一致，我们提出了最大的边缘多元核抽样策略，以一次产生多个高质量和不同的标题候选者，以便开发人员选择。我们构建了一个大规模数据集，其中包含890,000个问题帖子，其中涵盖了八种编程语言，以验证M $ _3 $ NSCT5的有效性。 BLEU和胭脂指标的自动评估结果表明，M $ _3 $ NSCT5的优势比六个最先进的基线模型。此外，具有值得信赖结果的人类评估也证明了我们对现实世界应用方法的巨大潜力。

translated by 谷歌翻译

HTML版本

Inner Monologue: Embodied Reasoning through Planning with Language Models

Wenlong Huang , Fei Xia , Ted Xiao , Harris Chan , Jacky Liang , Pete Florence , Andy Zeng , Jonathan Tompson , Igor Mordatch , Yevgen Chebotar

分类：机器人 | 人工智能 | 自然语言处理 | 计算机视觉 | 机器学习

2022-07-12

最近的作品表明，如何将大语言模型（LLM）的推理能力应用于自然语言处理以外的领域，例如机器人的计划和互动。这些具体的问题要求代理商了解世界上许多语义方面：可用技能的曲目，这些技能如何影响世界以及对世界的变化如何映射回该语言。在体现环境中规划的LLMS不仅需要考虑要做什么技能，还需要考虑如何以及何时进行操作 - 答案随着时间的推移而变化，以响应代理商自己的选择。在这项工作中，我们调查了在这种体现的环境中使用的LLM在多大程度上可以推论通过自然语言提供的反馈来源，而无需任何其他培训。我们建议，通过利用环境反馈，LLM能够形成内部独白，使他们能够在机器人控制方案中进行更丰富的处理和计划。我们研究了各种反馈来源，例如成功检测，场景描述和人类互动。我们发现，闭环语言反馈显着改善了三个领域的高级指导完成，包括模拟和真实的桌面顶部重新排列任务以及现实世界中厨房环境中的长途移动操作任务。

translated by 谷歌翻译

Learning Preconditions of Hybrid Force-Velocity Controllers for Contact-Rich Manipulation

Jacky Liang , Xianyi Cheng , Oliver Kroemer

分类：机器人

2022-06-25

机器人需要在约束环境（例如架子和橱柜）中操纵物体，以帮助人类在房屋和办公室等日常设置中。这些限制因减少掌握能力而变得难以操纵，因此机器人需要使用非忽视策略来利用对象环境联系来执行操纵任务。为了应对在这种情况下规划和控制接触性富裕行为的挑战，该工作使用混合力量速度控制器（HFVC）作为技能表示和计划的技能序列，并使用学到的先决条件进行了计划。尽管HFVC自然能够实现稳健且合规的富裕行为，但合成它们的求解器传统上依赖于精确的对象模型和对物体姿势的闭环反馈，这些反馈因遮挡而在约束环境中很难获得。我们首先使用HFVC综合框架放松了HFVC对精确模型和反馈的需求，然后学习一个基于点云的前提函数，以对HFVC执行仍将成功地进行分类，尽管建模不正确。最后，我们在基于搜索的任务计划者中使用学到的前提来完成货架域中的接触式操纵任务。我们的方法达到了$ 73.2 \％$的任务成功率，表现优于基线实现的$ 51.5 \％$，而没有学习的先决条件。在模拟中训练了前提函数时，它也可以转移到现实世界中，而无需进行其他微调。

translated by 谷歌翻译

Adversarially Robust Models may not Transfer Better: Sufficient Conditions for Domain Transferability from the View of Regularization

Xiaojun Xu , Jacky Yibo Zhang , Evelyn Ma , Danny Son , Oluwasanmi Koyejo , Bo Li

分类：机器学习

2022-02-03

机器学习（ML）鲁棒性和域的概括从根本上相关：它们基本上涉及对抗和自然设置下的数据分布变化。一方面，最近的研究表明，更健壮的（受对抗训练）模型更为普遍。另一方面，缺乏对其基本联系的理论理解。在本文中，我们探讨了考虑到不同因素（例如规范正规化和数据增强）（DA）等不同因素的正则化和域转移性之间的关系。我们提出了一个一般的理论框架，证明涉及模型函数类正则化的因素是相对域可传递性的足够条件。我们的分析意味着``鲁棒性''既不必需，也不足以使其可转移性；而正规化是理解域可转移性的更基本的观点。然后，我们讨论流行的DA协议（包括对抗性培训），并显示何时可以将其视为功能在某些条件下进行类正则化并因此改善了概括。我们进行了广泛的实验以验证我们的理论发现，并显示了几个反例，其中鲁棒性和概括在不同的数据集上呈负相关。

translated by 谷歌翻译

Improving Stack Overflow question title generation with copying enhanced CodeBERT model and bi-modal information

Fengji Zhang , Xiao Yu , Jacky Keung , Fuyang Li , Zhiwen Xie , Zhen Yang , Caoyuan Ma , Zhimin Zhang

分类：自然语言处理 | 人工智能

2021-09-27

上下文：堆栈溢出对于寻求编程问题答案的软件开发人员非常有帮助。先前的研究表明，越来越多的问题质量低，因此从潜在的答案者那里获得了更少的关注。 Gao等。提出了一个基于LSTM的模型（即BilstM-CC），以自动从代码片段中生成问题标题，以提高问题质量。但是，只有在问题主体中使用代码段无法为标题生成提供足够的信息，而LSTMS无法捕获令牌之间的远程依赖性。目的：本文提出了基于深度学习的新型模型CCBERT，旨在通过充分利用整个问题主体的双模式信息来增强问题标题生成的性能。方法：CCBERT遵循编码器范式范式，并使用Codebert将问题主体编码为隐藏的表示形式，堆叠的变压器解码器以生成预测的代币，以及附加的复制注意层来完善输出分布。编码器和解码器都执行多头自我注意操作，以更好地捕获远程依赖性。本文构建了一个数据集，该数据集包含大约200,000个高质量问题，该数据从Stack Overflow正式发布的数据中滤除，以验证CCBERT模型的有效性。结果：CCBERT优于数据集上的所有基线模型。对仅代码和低资源数据集进行的实验表明，CCBERT的优势性能较小。人类评估还显示了CCBERT关于可读性和相关标准的出色表现。

translated by 谷歌翻译